2024 iThome 鐵人賽

DAY 2

生成式 AI

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列第 2 篇

第 2 天：LLM (Large Language Model )是什麼？

16th鐵人賽

John Wu

2024-08-24 08:53:30

382 瀏覽

分享至

在接觸使用 ChatGPT 這種 AI 工具前也要先認識他們所使用的 AI 模型「LLM」是什麼啦，先看看維基百科的定義：

大型語言模型（Large Language Model, LLM）是一種能夠執行語言生成或其他自然語言處理任務的計算模型。這些模型透過學習大量文本中的統計關係來獲得能力，通常是透過自我監督或半監督的訓練過程完成的。

大型語言模型的重要性在於它們能夠理解和生成自然語言，並且可以被用來解決許多與語言相關的問題，比如自動化翻譯、文本生成、問答系統等等。這些模型已經在多個領域內取得了顯著的成果，例如 OpenAI 的 GPT 系列、Google 的 Gemini 系列，以及 Meta 的 LLaMA 系列等，這些都展示了 LLMs 在處理和生成大規模文本數據方面的強大能力。

我想這樣就可以知道 LLM 主要適用於「處理語言相關的機器學習模型」，也因此 LLM 他是很仰賴「訓練資料集」的一種模型，合理你吐什麼資料給他，他就生成什麼給你，所以適合應用的場景就會是跟「語言相關」的為主，像是：

對話系統：它可以用來建立聊天機器人，幫助公司自動回覆客戶問題，節省人力。
文本生成：可以用來寫文章、生成產品描述，甚至幫助作家創作故事。
翻譯：它能把一種語言自動翻譯成另一種語言，打破語言的障礙。
教育：可以用來幫助學生學習，回答他們的問題，或是提供額外的學習材料。

那為何 LLM 可以寫程式或是畫畫呢？

LLM 之所以能夠生成程式碼或是繪圖，是因為它們背後的工作原理是基於統計和模式識別，而這些原理並不限於語言本身

1. 模式識別與通用性

LLM 在訓練過程中學習了大量文本數據，包括程式碼、數學表達式、圖形描述等。這使得模型能夠識別這些數據中的模式並應用在不同的上下文中。例如：程式碼和語言都遵循某種結構和語法規則，LLM 能夠學習這些規則並應用於生成新程式碼。

2. 多樣化訓練數據

在訓練大型語言模型時，通常會用到多樣化的數據集，這些數據集可能包含了書籍、網站文章、對話記錄，甚至還包括了程式碼片段和圖像生成描述。這讓模型具備了跨領域應用的能力。

3. 生成式任務的相似性

無論是語言生成、程式碼生成還是圖像生成，這些任務的本質都是在給定輸入的基礎上生成合乎邏輯的輸出。模型在語言生成任務中的能力可以擴展到其他類似的生成任務中。例如，當模型學習到如何生成自然語言時，它也能學會如何按照相似的方式生成程式碼或圖像的描述，進而通過接口（如 API）來創建實際的圖像。

4. 利用工具和外部模型

LLM 在生成程式碼或圖像時，有時會結合外部的工具或特定的模型。例如，當你要求模型「畫一隻貓」時，LLM 可能會生成一段描述或代碼，這段描述或代碼再由專門的圖像生成模型（如DALL-E）來轉化為具體的圖像。因此，LLM 的能力實際上是在調用和協同使用不同領域的技術和工具。

因此這樣也幫助我們認識到他背後的運行原理了，下次朋友跟你說 AI 可以幫他做什麼時，不仿也可以想像「這個過程是否是可以符合邏輯或是透過描述來達到的」，如果可以那就是很適合透過 AI 來協助，但如果不行「ex: 在沒有訓練資料集的情況下創造全新的東西」，那或許還是需要透過我們人類來解決了。

第 1 天：IT 鐵人競賽完成目標

第 3 天：我是怎麼看待 AI 的出現

系列文

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列 第 2 篇